KI im Jahre 2023

Was ist das, was kann es, was kann es nicht?

Prof. Oliver Dürr, Prof. Georg Umlauf und ChatGPT

Überblick

  • Einordnung

    • Deep Learning vs. Künstliche Intelligenz
  • Prinzipielle Funktionsweise von neuronalen Netzen

    • Einfache NN

      • Blutdruck aus Alter, Wetter
    • Komplexere NN (Prinzip)

    • Training von NN

  • Grenzen der KI / Prinzipbedingte Schwächen

Vorbemerkung

Der kluge Hans

Tauben in der Tumorerkennung

10 Tauben so gut wie ein Pathologe: youtube

Starke vs. schwache KI

  • Starke / allgemeine KI (general AI)

    • Allgemeine Intelligenz

    • Bewusstsein “Science Fiction?”

  • Schwache KI (im folgenden nur KI)

    • Konkreten Anwendungsproblemen

    • Leistungen in den letzten 50 Jahren

      • Taschenrechner, Schach
    • Enorme Steigerungen in den letzten 10 Jahren (Deep Learning)

      • Bilderkennung, GO, Übersetzungen, ChatGPT
Enorme Fortschritte in KI, aber nicht der starken

KI (AI), Machine Learning, Deep Learning

Deep Learning dominates the current AI wave from ~ 2010 on

Anwendungen

Alle NN bestehen aus Neuronen…

…Mache haben aber mehr Neuronen als andere

Verschiedene Architeckturen…

…aber es ändert sich nicht viel vom der linearen regression zu ChatGPT

Beispiel: ChatGPT

  • Art Language Model

    • Input X Sequence (bis zu 8000 Wörter1)

    • Output Y nächstes Wort (W’keiten)

  • Typisches Netz 2020 GPT-3 175’000’000’000 Parameter

Beispiel: Alexnet

  • Art Bild Klassifikation

    • Input X Bild z.B. 1024x1024 Pixel

    • Output Y Klasse Label (eines von 1000)

  • Typisches Netz 2012 Alex Net 60’000’000 Parameter

Beispiel: GaussNet (Lineare Regression)

  • Art Lineare Regresion

    • Input X Zahl (X=alter)

    • Output Y Zahl (Y=Blutdruck)

  • Typisches Lineare Regression Gauss (unpublished ~1795), Legendre (1805)

Beispiel Fully Connected NN

  • Art fully connected neural network

    • Input X 3 Zahlen Wetter heute (1,0,0)

    • Output 3 Zahlen Wetter morgen (Wahrscheinlichkeiten)

  • Typisches Netz Fully Connected NN

Training

Training von NN (Beispiel Bildklassifikation)

Training von ChatGPT

  1. Vorhersage des nächsten Worts

    • Muss keine Daten labeln

    • Trainingsdaten “Internet” (common crawl)

    • CO2 äquivalent 120 Auto für ein Jahr

  2. Finetuning als Chatbot

Training von NN (Beispiel Blutdruck)

Einfache Netzwerke

NN 1: Vorhersage des Blutdrucks

Trainingsdaten: Blutdruck von 33 Nordamerikanischen Frauen (ersten 10)

    x   y
1  22 131
2  41 139
3  52 128
4  23 128
5  41 171
6  54 105
7  24 116
8  46 137
9  56 145
10 27 106

Q: Welchen Blutdruck schätzen Sie für eine 75 jährige Frau (gegeben den Trainingsdaten)?

Data

Idee?

Lineare Regression

Model mit 2 parametern \(w,b\), welches für jedes gegebenes Alter (x) den Blutdruck(y) vorhersagt:

\[ y = w \cdot x + b \]

Neuronale Netze

Lineare Regression as Neuronales Netz

Parameter werden as Neuronen interpretiert.

NN 2 Wetter in Konstanz

NN 2 Wetter in Konstanz

  • Output ist Wahrscheinlichkeit

Training großer Netze

  • Lineare regression hat 2 parameter (slider)

  • Grosse Netze haben Mio/Mrd parameter

  • Training Minimierung einer Verlustfunktion auf den Trainingsdaten

    • Frage: Wie gut sagt das Model die Daten vorher (Maximum Likelihood Prinzip)

    • Algorithmus Backpropagation (Rummelhard)

    • Training von großen Netzten große technoligische Herausforderung

Vorhersagen nur so gut wie Trainingsbeispiele!

ChatGTP

Principles of ChatGPT

  • Transformer Architecture / self attention

    • Spezielle Art neuronen zu verbinden: Vaswani et al. (2017)
  • “trained with maximum likelihood”

    • “Normales Training”
  • Generative Language Model […] predict next token in a sequence of tokens

Generating Text (You)

Wahrscheinlichkeiten (des Sprachmodels) für das nächste Wort

  • trinken (70%)

  • bieremoji (15%)

  • oder (10%)

  • sonstige kummuliert (5%)

Generating Text (ChatGPT)

  • Steps 1: Describe your technology in one sentence. -> I

  • Steps 2: Describe your technology in one sentence. I -> am

  • Steps 3: Describe your technology in one sentence. I am -> a

  • Steps 4: Describe your technology in one sentence. I am a -> generative

  • Step 36 Describe your technology in one sentence. I am a … new text. -> <END>

Beim Text wird das nächste Wort proportional zur Wahrscheinlichkeit ausgewürfelt.

Beispiel 1

Beispiel 2

Praktische Konsequenzen Prompt Design

Alles hängt vom Input ab.

Beispiel

Formulierung eines Absage Schreibens

[Bitte Schreibe eine Höfliche Absage gehe auf folgende Punkte ein]
Keine Zeit
Mein Name ist Oliver Dürr 

--- Hier E-Mail hinpasten ----

Zwischen Fazit

  • Deep Learning NN Modelle sind parametrische Modelle
  • Einfachstes Beispiel lineare Regression

  • Die Parameter werden an Trainingsdaten gefittet

Oder prägnanter…

Der Kaiser ist nackt

<<All the impressive achievements of deep learning amount to just curve fitting>>

Juda Pearl, 2018

Limitations of NN

Transparenz / Interpretation

  • Einfach Modelle wie lineare Regression können interpretiert werden.

  • Komplexe Modelle oft in den Vorhersagen besser.

  • Kombination von einfachen interpretierbaren mit komplexen Modellen1

    • Beispiel Vorhersage von Hautkrebs

      • Bild Daten mit tiefen NN

      • Alter mit linearer Regression

  • Wichtigkeit von bestimmten Eingangsdaten für ein Modelentscheidungen.2

Bias

  • Daten bassieren auf 33 nordamerikanischen Frauen
  • Nicht übertragbar auf Männer / Assiaten

Bias in Sprachmodellen

Grundproblem Keine Kausalität

Statistische Natur von KI

Fazit

KI ist ein hilfreiches Werkzeug

  • Code für Aniationen wurde mit ChatGPT entwickelt

  • Viele Nüzliche Anwendungen Medizin, Stromvorhersage,…

Allerdings

  • Auch wenn es schwerfällt zu glauben: kein inneres Verständniss1
  • Biased
    • Nur so gut wie Trainingsdaten

    • Schwer (bis unmöglich) bias rauszubekommen

  • Intransparent

Backup

Weitere Probleme

  • Overconfidence

  • Nicht robust

  • Nicht kausal

Overconfident

Overconfident

Overconfident

Deep Learning für Tumor Erkennung

DL so gut wie PathologInnen …

Zusammenfassungen

Kook, Lucas, Lisa Herzog, Torsten Hothorn, Oliver Dürr, and Beate Sick. 2022. “Deep and Interpretable Regression Models for Ordinal Outcomes.” Pattern Recognition 122: 108263.
Rumelhart, David E., Geoffrey E. Hinton, and Ronald J. Williams. 1986. “Learning Representations by Back-Propagating Errors.” Nature 323 (6088): 533–36. https://doi.org/10.1038/323533a0.
Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. “Attention Is All You Need.” arXiv. https://doi.org/10.48550/arXiv.1706.03762.